在本文中,我们调查了如何在重复的上下文首次价格拍卖中出价的问题。我们考虑一个投标人(学习者)在第一个价格拍卖中反复出价:每次$ t $,学习者都会观察上下文$ x_t \ in \ mathbb {r} ^ d $,并根据历史信息决定出价$ x_t $。我们假设所有其他人的最大出价的结构化线性模型$ m_t = \ alpha_0 \ cdot x_t + z_t $,其中$ \ alpha_0 \ in \ mathbb {r} ^ d $对学习者未知,$ z_t $随机地从噪声分布$ \ mathcal {f} $上采样,使用log-tym-tangave密度函数$ f $。我们考虑\ emph {二进制反馈}(学习者只能观察她是否赢)和\ emph {完全信息反馈}(学习者可以在每次$ t $的末尾观察$ m_t $)。对于二进制反馈,当噪声分布$ \ mathcal {f} $时,我们提出了一种竞标算法,通过使用最大似然估计(MLE)方法来实现至多$ \ widetilde {o}(\ sqrt {\ log( d)t})$后悔。此外,我们将该算法概括为具有二进制反馈的设置,并且噪声分布未知,但属于参数化分布。对于具有\ EMPH {Unknown}噪声分布的完整信息反馈,我们提供了一种算法,它在大多数$ \ widetilde {o}(\ sqrt {dt})$上实现后悔。我们的方法将估计器组合了对数凹入密度函数,然后将MLE方法同时学习噪声分布$ \ mathcal {f} $和线性重量$ \ alpha_0 $。我们还提供了一个下限的结果,使得广泛课堂上的任何竞标政策必须至少为\ omega(\ sqrt {t})$而遗憾,即使学习者收到完整信息反馈和$ \ mathcal {f} $已知。
translated by 谷歌翻译
在随着时间变化的组合环境中的在线决策激励,我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题,我们提供了一个通用框架,该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明,在完整信息设置下,由此产生的在线算法具有$ O(\ sqrt {t})$(近似)遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展,我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪(t^{2/3})$(近似)$(近似)的遗憾。展示了我们框架的灵活性,我们将脱机之间的转换应用于收入管理,市场设计和在线优化的几个问题,包括在线平台中的产品排名优化,拍卖中的储备价格优化以及supperular tossodular最大化。 。我们还将还原扩展到连续优化的类似贪婪的一阶方法,例如用于最大化连续强的DR单调下调功能,这些功能受到凸约束的约束。我们表明,当应用于这些应用程序时,我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究,在这两种应用中,我们都观察到,转换的数值性能在实际情况下优于理论保证。
translated by 谷歌翻译
全息减少的表示(HRR)是通过将每个向量与抽象概念相关联,并提供数学操作以操纵向量的方法来执行符号AI的方法,以便操纵向量,就像它们是经典的符号对象一样。这种方法在较旧的象征性AI工作和认知科学之外已经很少使用。我们的目标是重新审视这种方法,以了解它是否可行,以使混合神经象征性的方法能够学习作为深度学习架构的可差分量。由于数值不稳定性,HRRS今天在可分辨率的解决方案中无效,我们通过引入迫使向量存在于空间良好的点中的投影步骤来解决问题。这样做,我们将HRRS的概念检索效果提高超过100美元。使用多标签分类,我们演示了如何利用符号HRR属性来开发能够有效学习的输出层和损耗功能,并允许我们调查HRR神经象征性学习方法的一些优缺点。我们的代码可以在https://github.com/neuromorphiccomputationResearchProgram/learning-with-hotographicuredued-representations
translated by 谷歌翻译